Үндсэн агуулга руу алгасах
OpenAI

2025 оны арван нэгдүгээр сарын 3

СудалгааГаргалт

IndQA-г танилцуулж байна

Энэтхэгийн соёл, хэл дээрх AI системүүдийг үнэлэх шинэ жишиг.

3x4 хэмжээтэй, дугуйрсан дөрвөлжин товчлууруудын тор бөгөөд тус бүр нь өөр өөр Энэтхэг бичиг эсвэл латин цагаан толгойн тэмдэгт агуулсан байна. Тэмдэгтүүдэд бенгал (অ), англи (En), хинди (ह), каннада (Hi) болон Энэтхэгийн янз бүрийн хэлийг төлөөлөх бусад тэмдэгтүүд багтсан бөгөөд цайвар саарал дэвсгэр дээр байрласан. Зураг нь олон хэлний дэмжлэг эсвэл хэл сонголтыг илтгэнэ.
Ачаалж байна…

Бидний эрхэм зорилго бол AGI-ийн үр өгөөжийг бүх хүн төрөлхтөнд хүргэх явдал. Хэрэв AI хүн бүрт хэрэгтэй байх гэж байгаа бол хэл, соёл бүрт сайн ажиллах хэрэгтэй. Дэлхий даяарх хүмүүсийн ойролцоогоор 80 хувь нь англи хэлийг үндсэн хэлээ болгодоггүй ч англиас бусад хэлний чадварыг хэмждэг одоогийн ихэнх жишиг хангалтгүй байна.

MMMLU(шинэ цонхонд нээгдэнэ) зэрэг олон хэлний одоогийн жишгүүд одоо ханасан байдалд хүрсэн—шилдэг загварууд өндөр онооны орчимд бөөгнөрдөг—иймээс бодит ахицыг хэмжихэд ашиг багатай болсон. Нэмж хэлэхэд, одоогийн жишгүүд ихэвчлэн орчуулга эсвэл олон сонголттой даалгаварт төвлөрдөг. Тэд AI системийн хэлний чадварыг үнэлэхэд үнэхээр чухал зүйлийг—нөхцөл байдал, соёл, түүх, мөн хүмүүсийн амьдарч буй газарт нь чухал байдаг зүйлсийг ойлгохыг—хангалттай тусгаж чаддаггүй.

Иймээс бид Энэтхэг хэл дээр хүмүүсийн хувьд чухал асуултуудыг AI загварууд хэр сайн ойлгож, тэдгээр дээр сэтгэн бодож байгааг олон төрлийн соёлын салбараар үнэлэхээр бүтээгдсэн шинэ жишиг болох IndQA-г бүтээсэн. Бусад хэл, бүс нутгуудад үүнтэй төстэй жишиг бүтээх зорилготой ч Энэтхэг бол эхлэхэд маш тохиромжтой цэг юм. Энэтхэгт англи хэлийг үндсэн хэлээ болгодоггүй ойролцоогоор нэг тэрбум хүн, 22 албан ёсны хэл (үүнээс дор хаяж долоо нь 50 саяас дээш ярьцгаагчтай) байдаг бөгөөд ChatGPT‑ийн хоёр дахь том зах зээл юм.

Энэ ажил нь Энэтхэгийн хэрэглэгчдэд зориулсан бүтээгдэхүүн, хэрэгслүүдээ сайжруулах, мөн технологио улс даяар илүү хүртээмжтэй болгох бидний тасралтгүй амлалтын нэг хэсэг юм.

Хэрхэн ажилладаг вэ

IndQA нь Энэтхэг хэл дээрх Энэтхэгийн соёл болон өдөр тутмын амьдралын талаарх мэдлэг, сэтгэн бодох чадварыг үнэлдэг. Энэ нь Энэтхэг даяарх 261 салбарын мэргэжилтэнтэй хамтран бүтээсэн 12 хэл, 10 соёлын салбарыг хамарсан 2,278 асуултыг багтаадаг. MMMLU болон MGSM зэрэг одоогийн жишгүүдээс ялгаатай нь, одоогийн үнэлгээнүүдийн барьж авч чаддаггүй соёлын нарийн мэдрэмж, өндөр сэтгэн бодох шаардлагатай даалгавруудыг шалгахаар бүтээгдсэн.

IndQA нь Архитектур ба дизайн, Урлаг ба соёл, Өдөр тутмын амьдрал, Хоол ба хоолны соёл, Түүх, Хууль ба ёс зүй, Уран зохиол ба хэл шинжлэл, Хэвлэл мэдээлэл ба энтертайнмент, Шашин ба сүнслэг байдал, мөн Спорт ба чөлөөт цаг зэрэг соёлын хувьд хамааралтай өргөн хүрээний сэдвийг хамардаг—мөн агуулгууд нь Бенгал, Англи, Хинди, Хинглиш, Каннада, Марати, Одиа, Телугу, Гужарати, Малаялам, Пунжаби, болон Тамил хэлээр эх хэл дээр нь бичигдсэн. Тэмдэглэл: Ярианд код шилжилт өргөн тархсан тул бид Хинглишийг зориуд нэмсэн.

Өгөгдлийн цэг бүрт Энэтхэг хэл дээрх соёлд суурилсан өгөгдөл, аудит хийх боломжтой болгох англи орчуулга, үнэлгээ хийх рубрикийн шалгуур, мөн мэргэжилтний хүлээлтийг тусгасан идеал хариулт багтдаг.

Үнэлгээний процессыг дүрсэлсэн диаграм: хэрэглэгч-туслахын жишээ яриа, нэр дэвшигч хариулт, мөн хариултыг шалгуур бүрээр оноо өгөхөд ашиглах рубрикийн хүснэгт.

IndQA нь рубрикт суурилсан арга ашигладаг. Хариулт бүрийг тухайн асуултад зориулан салбарын мэргэжилтнүүдийн бичсэн шалгуурын эсрэг үнэлдэг. Эдгээр шалгуур нь идеал хариултад юу багтах ёстой, юуг зайлсхийх ёстойг тодорхойлж өгдөг бөгөөд тус бүрт ач холбогдлоос нь хамаарч жинлэсэн оноо өгдөг. Загварт суурилсан үнэлэгч шалгуур бүр биелсэн эсэхийг шалгана. Эцсийн оноо нь хангагдсан шалгуурын оноонуудын нийлбэрийг нийт боломжит оноонд харьцуулсан дүн юм.

IndQA-г хэрхэн бүтээсэн бэ

  • Мэргэжилтнүүдийн зохиосон асуултууд. Бид түншүүдтэйгээ хамтран Энэтхэгийн 10 өөр салбарт мэргэжилтнүүдийг олсон. Тэд өөрсдийн бүс нутаг, мэргэшилтэй холбоотой, хүнд бөгөөд сэтгэн бодох төвтэй өгөгдлүүдийг боловсруулсан. Эдгээр мэргэжилтнүүд нь холбогдох хэлний (мөн англи хэлний) эх хэлний түвшний яригчид бөгөөд сэдвийн гүн мэдлэгтэй.
  • Сөргөлдөөнт шүүлт: Асуулт бүрийг бүтээх үеийн OpenAI-ийн хамгийн хүчтэй загварууд болох GPT‑4o, OpenAI o3, GPT‑4.5, мөн (олон нийтэд танилцуулсны дараа хэсэгчлэн) GPT‑5‑ийн эсрэг туршсан. Эдгээр загваруудын олонх нь хүлээн зөвшөөрөхүйц хариулт гаргаж чадаагүй асуултуудыг л бид хадгалж, цаашдын ахицад зай үлдээсэн.
  • Дэлгэрэнгүй шалгуур. Асуулт бүрийн хамт салбарын мэргэжилтнүүд эсээ төрлийн шалгалтын рубриктай төстэйгээр загварын хариултыг үнэлэх шалгуур өгсөн. Эдгээр шалгуурыг нэр дэвшигч загваруудын хариултыг үнэлэхэд ашигладаг.
  • Идеал хариулт + хянан шалгалт. Мэргэжилтнүүд идеал хариулт болон англи орчуулгыг нэмж, дараа нь үе тэнгийн хяналт болон давтамжтай засвар хийж, эцэст нь баталгаажуулсан.

Жишээ асуултууд

Хэл: Бенгал

Салбар: Уран зохиол ба хэл шинжлэл

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

Салбар: Хоол, хоолны соёл

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

Цаг хугацааны явц дахь сайжруулалт

Бид IndQA-г ашиглан сүүлийн үеийн хил хязгаар загварууд хэр ажиллаж байгааг үнэлж, сүүлийн хоёр жилийн ахицыг дүрслэн харуулдаг. IndQA-ийн тусламжтайгаар OpenAI-ийн загварууд Энэтхэг хэл дээр цаг хугацааны явцад мэдэгдэхүйц сайжирсныг (анхаарах зүйлсийн хамт) харж болох ч сайжруулах ихээхэн зай байсаар байна. Цаашид гүйцэтгэлийг сайжруулж, ирээдүйн загваруудын үр дүнг хуваалцахыг бид тэсэн ядан хүлээж байна.

Мөн доор бид IndQA дээрх гүйцэтгэлийг Хэл болон Салбараар нь ангилан, GPT‑5 Thinking High-ийг бусад хил хязгаар загваруудтай харьцуулж үзүүлж байна.

Анхаарах зүйлс

Асуултууд хэл бүрт ижил биш учраас IndQA нь хэлний лидерборд биш; хэл хоорондын оноог хэлний чадварын шууд харьцуулалт гэж үзэж болохгүй. Үүний оронд бид IndQA-г загварын нэг гэр бүл эсвэл тохиргооны хүрээнд цаг хугацааны явц дахь сайжруулалтыг хэмжихэд ашиглахаар төлөвлөж байна.

Нэмж хэлэхэд, асуултуудыг GPT‑4o, OpenAI o3, GPT‑4.5, мөн (олон нийтэд танилцуулсны дараа) GPT‑5 хангалттай сайн хариулж чадаагүй асуултуудаас шүүж авсан тул асуултын сонголт эдгээр загваруудын эсрэг сөргөлдөөнт шинжтэй. Энэ нь GPT‑5‑ийн харьцангуй гүйцэтгэлд нөлөөлж болзошгүй бөгөөд OpenAI-ийн бус загваруудтай харьцуулахад бүх OpenAI загварт сул тал болж мэднэ.

IndQA-ийн ард буй мэргэжилтнүүд

IndQA-д зориулж асуулт зохиож, хянан шалгасан Энэтхэгийн 261 мэргэжилтэн—сэтгүүлчид, хэл шинжээчид, эрдэмтэд, уран бүтээлчид, салбарын практикчид—д бид талархаж байна. Бидний хамтран ажилласан мэргэжилтнүүдийн заримаас дурдвал:

  • 750 гаруй кинонд ажилласан, Nandi Award хүртсэн телугу жүжигчин, кино зохиолч
  • Tarun Bharat сонины марати сэтгүүлч, редактор
  • Каннада хэл шинжлэлийн судлаач, толь бичгийн редактор
  • Шатрын дэлхийн топ-100 тоглогчдыг дасгалжуулдаг олон улсын их мастер
  • Нийгмийн шударга ёс, кастын тэгш байдал, утга зохиолын эрх чөлөөг дэмждэг тамил зохиолч, яруу найрагч, соёлын идэвхтэн
  • Шагнал хүртсэн пунжаби хөгжмийн зохиолч
  • Гужарати өв соёлын куратор, хамгаалалтын мэргэжилтэн
  • Шагнал хүртсэн малаялам яруу найрагч, перформанс уран бүтээлч
  • Бенгалын баялаг соёлын өвөөр мэргэшсэн түүхийн профессор
  • Одишагийн сүм хийдүүдэд төвлөрдөг архитектурын профессор

Дараагийн алхмууд

IndQA-г гаргасан нь судалгааны хамтын нийгэмлэгт шинэ жишиг бүтээхэд мэдээлэл өгч, урам өгнө гэж найдаж байна. IndQA хэв маягийн асуултууд нь одоо байгаа AI жишгүүдэд муу хамрагдсан хэлүүд эсвэл соёлын салбаруудад онцгой үнэ цэнтэй. IndQA-тэй төстэй жишиг бүтээх нь AI судалгааны лабораториудад өнөөдөр загваруудын бэрхшээлтэй тулгарч буй хэл, салбарын талаар илүү ихийг ойлгоход тусалж, ирээдүйн сайжруулалтын чиг баримжаа болж өгнө.