
Біздің миссиямыз — AGI бүкіл адамзат игілігіне қызмет етуін қамтамасыз ету. Егер AI баршаға пайдалы болмақ болса, ол тілдер мен мәдениеттер аясында жақсы жұмыс істеуі керек. Әлемдегі адамдардың шамамен 80 пайызы ағылшын тілін негізгі тілі ретінде сөйлемейді, бірақ ағылшын емес тілдердегі қабілеттерді өлшейтін қазіргі бенчмарктардың көбі жеткіліксіз.
MMMLU(жаңа терезеде ашылады) сияқты қазіргі көптілді бенчмарктар енді қанықты — озық модельдер жоғары ұпайлардың маңына шоғырланған — сондықтан олар нақты прогресті өлшеуге азырақ пайдалы. Бұған қоса, қазіргі бенчмарктар көбіне аудармаға немесе көп таңдаулы тапсырмаларға назар аударады. Олар AI жүйесінің тілдік қабілеттерін бағалауда шын мәнінде маңызды нәрселерді — контексті, мәдениетті, тарихты және адамдар тұратын жерде олар үшін маңызды дүниелерді — жеткілікті қамтымайды.
Сондықтан біз IndQA жасадық — үнді тілдерінде маңызды сұрақтарды AI модельдері қаншалықты түсінетінін және олар жөнінде қаншалықты ой қорыта алатынын, мәдени салалардың кең ауқымы бойынша бағалауға арналған жаңа бенчмарк. Мақсатымыз басқа тілдер мен өңірлер үшін де ұқсас бенчмарктар жасау болса да, Үндістан — айқын бастау нүктесі. Үндістанда ағылшын тілін негізгі тілі ретінде қолданбайтын шамамен бір миллиард адам бар, 22 ресми тіл бар (соның ішінде кемінде жетеуінде 50 миллионнан астам адам сөйлейді), әрі ол ChatGPT үшін екінші ең ірі нарық.
Бұл жұмыс — үнді пайдаланушылары үшін өнімдеріміз бен құралдарымызды жақсартуға және технологиямызды бүкіл ел бойынша қолжетімдірек етуге бағытталған тұрақты міндеттемеміздің бір бөлігі.
IndQA үнді тілдеріндегі үнді мәдениеті мен күнделікті өмір туралы білім мен ой қорыту қабілетін бағалайды. Ол Үндістанның түкпір-түкпірінен 261 сала сарапшысымен серіктестікте жасалған, 12 тіл мен 10 мәдени саладағы 2 278 сұрақты қамтиды. MMMLU және MGSM сияқты қазіргі бенчмарктардан айырмашылығы, ол бар бағалау тәсілдері ұстай алмай қиналатын мәдени реңкі мол, ой қорытуға салмақ түсіретін тапсырмаларды тексеруге арналған.
IndQA мәдени тұрғыдан өзекті тақырыптардың кең ауқымын қамтиды, мысалы Сәулет және дизайн, Өнер және мәдениет, Күнделікті өмір, Тағам және асхана, Тарих, Құқық және этика, Әдебиет және тіл білімі, Медиа және ойын-сауық, Дін және руханият және Спорт және демалыс — ал тапсырмалар тікелей бенгал, ағылшын, хинди, хинглиш, каннада, маратхи, одия, телугу, гуджарати, малаялам, панджаби және тамил тілдерінде жазылған. Ескерту: әңгімелерде код-ауысудың кең таралуына байланысты біз хинглишті әдейі қостық.
Әрбір дерек нүктесі үнді тіліндегі мәдени тұрғыдан негізделген көмексөзді, тексерілуі үшін ағылшын тіліндегі аударманы, бағалауға арналған рубрика критерийлерін және сарапшылар күткенді көрсететін үлгілі жауапты қамтиды.
IndQA рубрикаға негізделген тәсілді қолданады. Әр жауап сол нақты сұраққа арнап сала сарапшылары жазған критерийлерге қарсы бағаланады. Критерийлер үлгілі жауап нені қамтуы немесе неден аулақ болуы керегін нақтылайды, әрі әрқайсысына маңыздылығына қарай салмақталған ұпай мәні беріледі. Модельге негізделген бағалаушы әр критерийдің орындалған-орындалмағанын тексереді. Қорытынды ұпай — орындалған критерийлер үшін жиналған ұпайлардың мүмкін жалпы ұпайдан алынған қосындысы.
- Сарапшылар жазған сұрақтар. Біз серіктестермен бірге Үндістанның 10 түрлі саласынан сарапшыларды таптық. Олар өз өңірлері мен мамандықтарына байланысты күрделі, ой қорытуға бағытталған көмексөздер жасады. Бұл сарапшылар тиісті тілді (және ағылшын тілін) ана тілі деңгейінде меңгерген және терең пәндік сараптамаға ие.
- Адверсариал сүзгілеу: Әр сұрақ жасалған кезде OpenAI-дың сол сәттегі ең мықты модельдеріне қарсы тексерілді: GPT‑4o, OpenAI o3, GPT‑4.5 және (ішінара, жария іске қосылғаннан кейін) GPT‑5. Біз осы модельдердің басым бөлігі қабылдауға болатын жауап бере алмаған сұрақтарды ғана қалдырдық, осылайша алға ілгерілеуге орын сақталды
- Егжей-тегжейлі критерийлер. Әр сұрақпен бірге сала сарапшылары эссе сұрағына арналған емтихан рубрикасына ұқсас, модель жауабын бағалауда қолданылатын критерийлерді ұсынды. Бұл критерийлер үміткер модельдердің жауаптарын бағалау үшін қолданылады.
- Үлгілі жауаптар + шолу. Сарапшылар үлгілі жауаптар мен ағылшын тіліндегі аудармаларды қосты, содан кейін бекітілгенге дейін әріптестік шолу мен қайталама түзетулер жасалды.
Тіл: Бенгал
Сала: Әдебиет және тіл білімі
Сала: Тағам және асхана
Біз IndQA-ны соңғы озық модельдердің қалай нәтиже көрсететінін бағалау және соңғы екі жыл ішіндегі прогресті белгілеу үшін қолданамыз. IndQA арқылы OpenAI модельдерінің үнді тілдері бойынша уақыт өте едәуір жақсарғанын (кейбір ескертулермен) көре аламыз, бірақ әлі де айтарлықтай жақсарту қажет. Болашақ модельдер үшін нәтижелерді жақсартып, бөлісуді асыға күтеміз.
Төменде біз IndQA бойынша нәтижені Тіл және Сала бойынша да жіктейміз, GPT‑5 Thinking High моделін басқа озық модельдермен салыстырамыз.
Сұрақтар тілдер арасында бірдей емес болғандықтан, IndQA тілдер көшбасшылар кестесі емес; тілдер арасындағы ұпайларды тіл қабілетінің тікелей салыстыруы ретінде түсіндіруге болмайды. Оның орнына, біз IndQA-ны модельдер тобы немесе конфигурациясы аясында уақыт өте келе жақсаруды өлшеу үшін пайдалануды жоспарлаймыз.
Қосымша, сұрақтар GPT‑4o, OpenAI o3, GPT‑4.5 және (жария іске қосылғаннан кейін) GPT‑5 жеткілікті жауап бере алмаған сұрақтардан сүзілгендіктен, сұрақ іріктеуі осы модельдерге қарсы адверсариал сипатта. Бұл GPT‑5‑тің салыстырмалы нәтижесін бұрмалауы мүмкін және OpenAI-дың барлық модельдерін OpenAI-ға жатпайтын модельдермен салыстырғанда қолайсыз жағдайға қалдыруы ықтимал.
Біз IndQA үшін сұрақтар жазып, оларды шолған 261 үнді сарапшысына — журналистерге, тіл мамандарына, ғалымдарға, өнер қайраткерлеріне және сала практиктеріне — алғысымызды білдіреміз. Біз жұмыс істеген сарапшылардың бірнеше мысалы:
- 750-ден астам фильмі бар, Нанди сыйлығын алған телугу актері және сценарист
- Tarun Bharat басылымының маратхи журналисі және редакторы
- Каннада тіл білімі бойынша ғалым және сөздік редакторы
- Үздік 100 шахматшыны жаттықтыратын халықаралық шахмат гроссмейстері
- Әлеуметтік әділеттілікті, касталық теңдікті және әдеби еркіндікті жақтайтын тамил жазушысы, ақын және мәдени белсенді
- Сыйлық алған панджаби музыка композиторы
- Гуджарати мұрасы бойынша куратор және сақтау жөніндегі маман
- Сыйлық алған малаялам ақыны және перформанс әртісі
- Бенгалдың бай мәдени мұрасына маманданған тарих профессоры
- Одиша храмдарына назар аударатын сәулет профессоры
IndQA-ның жариялануы зерттеу қауымдастығында жаңа бенчмарктар жасауға ақпарат беріп, шабыттандырады деп үміттенеміз. IndQA стиліндегі сұрақтар әсіресе қолданыстағы AI бенчмарктары нашар қамтыған тілдерде немесе мәдени салаларда аса құнды. IndQA-ға ұқсас бенчмарктар жасау AI зерттеу зертханаларына модельдер бүгінде қиналатын тілдер мен салалар туралы көбірек білуге көмектесіп, болашақтағы жақсартуларға бағдар бере алады.


