2025 ж. 3 қараша

IndQA-мен таныстыру

Үнді мәдениеті мен тілдері бойынша AI жүйелерін бағалауға арналған жаңа бенчмарк.

Дөңгеленген шаршы батырмалардан тұратын 3x4 тор, әрқайсысында әртүрлі үнді жазуынан немесе латын әліпбиінен бір таңба бар. Таңбалардың ішінде бенгал (অ), ағылшын (En), хинди (ह), каннада (Hi) және түрлі үнді тілдерін білдіретін басқалары бар, бәрі ашық сұр фонда орналасқан. Сурет көптілді қолдауды немесе тіл таңдауды меңзейді.

Жүктелуде…

Біздің миссиямыз — AGI бүкіл адамзат игілігіне қызмет етуін қамтамасыз ету. Егер AI баршаға пайдалы болмақ болса, ол тілдер мен мәдениеттер аясында жақсы жұмыс істеуі керек. Әлемдегі адамдардың шамамен 80 пайызы ағылшын тілін негізгі тілі ретінде сөйлемейді, бірақ ағылшын емес тілдердегі қабілеттерді өлшейтін қазіргі бенчмарктардың көбі жеткіліксіз.

MMMLU⁠(жаңа терезеде ашылады) сияқты қазіргі көптілді бенчмарктар енді қанықты — озық модельдер жоғары ұпайлардың маңына шоғырланған — сондықтан олар нақты прогресті өлшеуге азырақ пайдалы. Бұған қоса, қазіргі бенчмарктар көбіне аудармаға немесе көп таңдаулы тапсырмаларға назар аударады. Олар AI жүйесінің тілдік қабілеттерін бағалауда шын мәнінде маңызды нәрселерді — контексті, мәдениетті, тарихты және адамдар тұратын жерде олар үшін маңызды дүниелерді — жеткілікті қамтымайды.

Сондықтан біз IndQA жасадық — үнді тілдерінде маңызды сұрақтарды AI модельдері қаншалықты түсінетінін және олар жөнінде қаншалықты ой қорыта алатынын, мәдени салалардың кең ауқымы бойынша бағалауға арналған жаңа бенчмарк. Мақсатымыз басқа тілдер мен өңірлер үшін де ұқсас бенчмарктар жасау болса да, Үндістан — айқын бастау нүктесі. Үндістанда ағылшын тілін негізгі тілі ретінде қолданбайтын шамамен бір миллиард адам бар, 22 ресми тіл бар (соның ішінде кемінде жетеуінде 50 миллионнан астам адам сөйлейді), әрі ол ChatGPT үшін екінші ең ірі нарық.

Бұл жұмыс — үнді пайдаланушылары үшін өнімдеріміз бен құралдарымызды жақсартуға және технологиямызды бүкіл ел бойынша қолжетімдірек етуге бағытталған тұрақты міндеттемеміздің бір бөлігі.

Қалай жұмыс істейді

IndQA үнді тілдеріндегі үнді мәдениеті мен күнделікті өмір туралы білім мен ой қорыту қабілетін бағалайды. Ол Үндістанның түкпір-түкпірінен 261 сала сарапшысымен серіктестікте жасалған, 12 тіл мен 10 мәдени саладағы 2 278 сұрақты қамтиды. MMMLU және MGSM сияқты қазіргі бенчмарктардан айырмашылығы, ол бар бағалау тәсілдері ұстай алмай қиналатын мәдени реңкі мол, ой қорытуға салмақ түсіретін тапсырмаларды тексеруге арналған.

IndQA мәдени тұрғыдан өзекті тақырыптардың кең ауқымын қамтиды, мысалы Сәулет және дизайн, Өнер және мәдениет, Күнделікті өмір, Тағам және асхана, Тарих, Құқық және этика, Әдебиет және тіл білімі, Медиа және ойын-сауық, Дін және руханият және Спорт және демалыс — ал тапсырмалар тікелей бенгал, ағылшын, хинди, хинглиш, каннада, маратхи, одия, телугу, гуджарати, малаялам, панджаби және тамил тілдерінде жазылған. Ескерту: әңгімелерде код-ауысудың кең таралуына байланысты біз хинглишті әдейі қостық.

Әрбір дерек нүктесі үнді тіліндегі мәдени тұрғыдан негізделген көмексөзді, тексерілуі үшін ағылшын тіліндегі аударманы, бағалауға арналған рубрика критерийлерін және сарапшылар күткенді көрсететін үлгілі жауапты қамтиды.

Бағалау үдерісін көрсететін диаграмма: пайдаланушы мен ассистенттің мысал әңгімесі, үміткер жауап және жауапты критерийлер бойынша бағалау үшін қолданылатын рубрика кестесі.

IndQA рубрикаға негізделген тәсілді қолданады. Әр жауап сол нақты сұраққа арнап сала сарапшылары жазған критерийлерге қарсы бағаланады. Критерийлер үлгілі жауап нені қамтуы немесе неден аулақ болуы керегін нақтылайды, әрі әрқайсысына маңыздылығына қарай салмақталған ұпай мәні беріледі. Модельге негізделген бағалаушы әр критерийдің орындалған-орындалмағанын тексереді. Қорытынды ұпай — орындалған критерийлер үшін жиналған ұпайлардың мүмкін жалпы ұпайдан алынған қосындысы.

IndQA-ны қалай құрдық

Сарапшылар жазған сұрақтар. Біз серіктестермен бірге Үндістанның 10 түрлі саласынан сарапшыларды таптық. Олар өз өңірлері мен мамандықтарына байланысты күрделі, ой қорытуға бағытталған көмексөздер жасады. Бұл сарапшылар тиісті тілді (және ағылшын тілін) ана тілі деңгейінде меңгерген және терең пәндік сараптамаға ие.
Адверсариал сүзгілеу: Әр сұрақ жасалған кезде OpenAI-дың сол сәттегі ең мықты модельдеріне қарсы тексерілді: GPT‑4o, OpenAI o3, GPT‑4.5 және (ішінара, жария іске қосылғаннан кейін) GPT‑5. Біз осы модельдердің басым бөлігі қабылдауға болатын жауап бере алмаған сұрақтарды ғана қалдырдық, осылайша алға ілгерілеуге орын сақталды
Егжей-тегжейлі критерийлер. Әр сұрақпен бірге сала сарапшылары эссе сұрағына арналған емтихан рубрикасына ұқсас, модель жауабын бағалауда қолданылатын критерийлерді ұсынды. Бұл критерийлер үміткер модельдердің жауаптарын бағалау үшін қолданылады.
Үлгілі жауаптар + шолу. Сарапшылар үлгілі жауаптар мен ағылшын тіліндегі аудармаларды қосты, содан кейін бекітілгенге дейін әріптестік шолу мен қайталама түзетулер жасалды.

Сұрақ мысалдары

Тіл: Бенгал

Сала: Әдебиет және тіл білімі

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

Сала: Тағам және асхана

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

Уақыт өте келе жақсарулар

Біз IndQA-ны соңғы озық модельдердің қалай нәтиже көрсететінін бағалау және соңғы екі жыл ішіндегі прогресті белгілеу үшін қолданамыз. IndQA арқылы OpenAI модельдерінің үнді тілдері бойынша уақыт өте едәуір жақсарғанын (кейбір ескертулермен⁠) көре аламыз, бірақ әлі де айтарлықтай жақсарту қажет. Болашақ модельдер үшін нәтижелерді жақсартып, бөлісуді асыға күтеміз.

Төменде біз IndQA бойынша нәтижені Тіл және Сала бойынша да жіктейміз, GPT‑5 Thinking High моделін басқа озық модельдермен салыстырамыз.

Ескертулер

Сұрақтар тілдер арасында бірдей емес болғандықтан, IndQA тілдер көшбасшылар кестесі емес; тілдер арасындағы ұпайларды тіл қабілетінің тікелей салыстыруы ретінде түсіндіруге болмайды. Оның орнына, біз IndQA-ны модельдер тобы немесе конфигурациясы аясында уақыт өте келе жақсаруды өлшеу үшін пайдалануды жоспарлаймыз.

Қосымша, сұрақтар GPT‑4o, OpenAI o3, GPT‑4.5 және (жария іске қосылғаннан кейін) GPT‑5 жеткілікті жауап бере алмаған сұрақтардан сүзілгендіктен, сұрақ іріктеуі осы модельдерге қарсы адверсариал сипатта. Бұл GPT‑5‑тің салыстырмалы нәтижесін бұрмалауы мүмкін және OpenAI-дың барлық модельдерін OpenAI-ға жатпайтын модельдермен салыстырғанда қолайсыз жағдайға қалдыруы ықтимал.

IndQA артындағы сарапшылар

Біз IndQA үшін сұрақтар жазып, оларды шолған 261 үнді сарапшысына — журналистерге, тіл мамандарына, ғалымдарға, өнер қайраткерлеріне және сала практиктеріне — алғысымызды білдіреміз. Біз жұмыс істеген сарапшылардың бірнеше мысалы:

750-ден астам фильмі бар, Нанди сыйлығын алған телугу актері және сценарист
Tarun Bharat басылымының маратхи журналисі және редакторы
Каннада тіл білімі бойынша ғалым және сөздік редакторы
Үздік 100 шахматшыны жаттықтыратын халықаралық шахмат гроссмейстері
Әлеуметтік әділеттілікті, касталық теңдікті және әдеби еркіндікті жақтайтын тамил жазушысы, ақын және мәдени белсенді
Сыйлық алған панджаби музыка композиторы
Гуджарати мұрасы бойынша куратор және сақтау жөніндегі маман
Сыйлық алған малаялам ақыны және перформанс әртісі
Бенгалдың бай мәдени мұрасына маманданған тарих профессоры
Одиша храмдарына назар аударатын сәулет профессоры

Келесі қадамдар

IndQA-ның жариялануы зерттеу қауымдастығында жаңа бенчмарктар жасауға ақпарат беріп, шабыттандырады деп үміттенеміз. IndQA стиліндегі сұрақтар әсіресе қолданыстағы AI бенчмарктары нашар қамтыған тілдерде немесе мәдени салаларда аса құнды. IndQA-ға ұқсас бенчмарктар жасау AI зерттеу зертханаларына модельдер бүгінде қиналатын тілдер мен салалар туралы көбірек білуге көмектесіп, болашақтағы жақсартуларға бағдар бере алады.

Автор

OpenAI

Оқуды жалғастырыңыз

Барлығын қарау

GPT-5.6: Талпынысыңызға сәйкес кеңейетін озық Ойлау деңгейі

Өнім2026 ж. 9 шіл.

Бағдарламалау бағалауларында сигналды шудан ажырату

Зерттеу2026 ж. 8 шіл.

GPT-Live-ты таныстыру

Өнім2026 ж. 8 шіл.