Misi kita yaiku nggawe AGI migunani kanggo kabeh umat manungsa. Yen AI arep migunani kanggo kabeh wong, AI kudu bisa mlaku apik ing macem-macem basa lan budaya. Kira-kira 80 persen wong ing saindenging jagad ora nganggo basa Inggris minangka basa utama, nanging akèh benchmark sing ana kanggo ngukur kapabilitas basa non-Inggris isih kurang.
Benchmark multibasa sing wis ana kaya MMMLU(mbukak ing jendhela anyar) saiki wis jenuh—model paling dhuwur nglumpuk cedhak skor dhuwur—mula dadi kurang migunani kanggo ngukur kemajuan nyata. Saliyane kuwi, benchmark saiki umume mung fokus ing terjemahan utawa tugas pilihan ganda. Benchmark kuwi durung cukup nyekel apa sing sejatine penting kanggo ngevaluasi kapabilitas basa sistem AI—yaiku mangerteni konteks, budaya, sejarah, lan perkara sing penting kanggo wong ing panggonan uripe.
Mula saka kuwi kita nggawe IndQA, benchmark anyar sing dirancang kanggo ngevaluasi sepira apike AI model mangerteni lan nalar babagan pitakonan sing wigati ing basa-basa India, ing macem-macem domain budaya. Sanajan tujuan kita yaiku nggawe benchmark sing padha kanggo basa lan wilayah liyane, India dadi titik wiwitan sing cetha. India nduweni kira-kira sak milyar wong sing ora nganggo basa Inggris minangka basa utama, 22 basa resmi (kalebu paling ora pitung basa kanthi luwih saka 50 yuta panutur), lan dadi pasar paling gedhe nomer loro kanggo ChatGPT.
Karya iki minangka bagean saka komitmen kita sing terus lumaku kanggo ningkatake produk lan piranti kita kanggo pangguna India, lan supaya teknologi kita luwih gampang diakses ing saindenging negara.
IndQA ngevaluasi kawruh lan nalar babagan budaya India lan urip saben dina ing basa-basa India. Benchmark iki nyakup 2.278 pitakonan ing 12 basa lan 10 domain budaya, digawe kanthi kemitraan karo 261 ahli domain saka sak India. Beda karo benchmark sing wis ana kaya MMMLU lan MGSM, benchmark iki dirancang kanggo nliti tugas sing kebak nuansa budaya lan butuh nalar jero, sing angel dicekel evaluasi saiki.
IndQA nyakup maneka topik sing gegandhengan karo budaya, kayata Arsitektur & Desain, Seni & Budaya, Urip Saben Dina, Panganan & Kuliner, Sejarah, Hukum & Etika, Sastra & Linguistik, Media & Hiburan, Agama & Spiritualitas, lan Olahraga & Rekreasi—kanthi item sing ditulis langsung ing Bengali, Inggris, Hindi, Hinglish, Kannada, Marathi, Odia, Telugu, Gujarati, Malayalam, Punjabi, lan Tamil. Cathetan: Kita kanthi khusus nambahake Hinglish amarga code-switching kerep banget ana ing obrolan.
Saben datapoint ngemot prompt sing adhedhasar budaya ing salah siji basa India, terjemahan Inggris kanggo auditabilitas, kritéria rubrik kanggo menehi nilai, lan wangsulan ideal sing nggambarake pangajab para ahli.
IndQA nggunakake pendekatan adhedhasar rubrik. Saben tanggapan dinilai nglawan kritéria sing ditulis para ahli domain kanggo pitakonan tartamtu. Kritéria kasebut nerangake apa wae sing kudu ana utawa kudu diindhari ing wangsulan ideal, lan saben kritéria diwenehi bobot poin adhedhasar pentinge. Penilai adhedhasar model mriksa apa saben kritéria wis kawujud. Skor pungkasan yaiku jumlah poin saka kritéria sing kasil dipenuhi saka total poin sing bisa digayuh.
- Pitakonan ditulis para ahli. Kita kerja bareng mitra kanggo golek ahli ing India ing 10 domain beda. Dheweke nyusun prompt angel sing fokus ing nalar lan nyambung karo wilayah lan keahliane. Para ahli iki nduweni kaprigelan basa tingkat penutur asli ing basa sing relevan (lan Inggris) lan nggawa keahlian subjek sing jero.
- Filtering adversarial: Saben pitakonan diuji marang model paling kuwat OpenAI nalika digawe: GPT‑4o, OpenAI o3, GPT‑4.5, lan (sebagian, sawisé peluncuran umum) GPT‑5. Kita mung nyimpen pitakonan nalika mayoritas model iki gagal ngasilake wangsulan sing bisa ditampa, supaya isih ana ruang kanggo kemajuan
- Kritéria rinci. Bareng saben pitakonan, ahli domain nyedhiyakake kritéria kanggo menehi nilai tanggapan model, padha karo rubrik ujian kanggo pitakonan esai. Kritéria iki digunakake kanggo menehi nilai tanggapan saka model calon.
- Wangsulan ideal + review. Para ahli nambahake wangsulan ideal lan terjemahan Inggris, banjur diterusake peer review lan dandan iteratif nganti disetujoni.
Basa: Bengali
Domain: Sastra lan linguistik
Domain: Panganan lan kuliner
Kita nggunakake IndQA kanggo ngevaluasi carane kinerja model tercanggih anyar lan nggambar kemajuan sajrone sawetara taun pungkasan. Kanthi IndQA kita bisa ndeleng yen model OpenAI wis saya apik kanthi signifikan saka wektu ke wektu kanggo basa-basa India (kanthi cathetan), nanging isih ana ruang perbaikan sing gedhe. Kita ngarep-arep bisa ningkatake kinerja lan nuduhake asil kanggo model-model sabanjure.
Kita uga mbedakake kinerja ing IndQA miturut Basa lan Domain ing ngisor iki, kanthi mbandhingake GPT‑5 Thinking High karo model tercanggih liyane.
Amarga pitakonan ora padha persis ing saben basa, IndQA dudu leaderboard basa; skor antar basa ora kena ditegesi minangka bandhingan langsung kapabilitas basa. Nanging, kita ngrancang nggunakake IndQA kanggo ngukur peningkatan saka wektu ke wektu ing njero kulawarga model utawa konfigurasi.
Salajengipun, amarga pitakonan disaring dadi sing GPT‑4o, OpenAI o3, GPT‑4.5, lan (sawisé peluncuran umum) GPT‑5 ora bisa njawab kanthi cekap, pilihan pitakonan iki sifaté adversarial tumrap model-model kasebut. Iki bisa mbingungake penilaian kinerja relatif GPT‑5, lan bisa ngrugèkaké kabeh model OpenAI dibandhingaké model non-OpenAI.
Kita matur nuwun marang 261 ahli India—jurnalis, linguis, sarjana, seniman, lan praktisi industri—sing nulis lan mriksa pitakonan kanggo IndQA. Sawetara conto ahli sing kita ajak kerja bareng yaiku:
- Aktor lan panulis skenario Telugu pemenang Nandi Award kanthi luwih saka 750 film
- Jurnalis Marathi lan editor ing Tarun Bharat
- Sarjana linguistik Kannada lan editor kamus
- Grandmaster Catur Internasional sing nglatih pemain catur top-100
- Panulis, pujangga, lan aktivis budaya Tamil sing ngupaya keadilan sosial, kesetaraan kasta, lan kebebasan sastra
- Komposer musik Punjabi pemenang penghargaan
- Kurator warisan Gujarati lan spesialis konservasi
- Pujangga Malayalam lan seniman pertunjukan pemenang penghargaan
- Profesor sejarah, spesialis warisan budaya Bengal sing sugih
- Profesor arsitektur, fokus ing candhi-candhi Odishan
Kita ngarep rilis IndQA iki bakal menehi informasi lan inspirasi kanggo nggawe benchmark anyar saka komunitas riset. Pitakonan gaya IndQA migunani banget mligi kanggo basa utawa domain budaya sing durung akeh dicakup benchmark AI sing ana. Nggawe benchmark sing padha karo IndQA bisa mbantu laboratorium riset AI sinau luwih akeh babagan basa lan domain sing saiki isih angel kanggo model, lan menehi arah utama kanggo perbaikan ing mangsa ngarep.



