Liwati menyang isi utama
OpenAI

3 November 2025

RisetRilis

Ngenalake IndQA

Benchmark anyar kanggo ngevaluasi sistem AI babagan budaya lan basa India.

Kothak 3x4 isi tombol kothak sudut bunder, saben tombol ngemot siji karakter saka aksara India beda-beda utawa alfabet Latin. Karakterné kalebu Bengali (অ), Inggris (En), Hindi (ह), Kannada (Hi), lan liya-liyané sing makili macem-macem basa India, ana ing latar abu-abu enom. Gambar iki nuduhake dhukungan multibasa utawa pilihan basa.
Lagi dimuat…

Misi kita yaiku nggawe AGI migunani kanggo kabeh umat manungsa. Yen AI arep migunani kanggo kabeh wong, AI kudu bisa mlaku apik ing macem-macem basa lan budaya. Kira-kira 80 persen wong ing saindenging jagad ora nganggo basa Inggris minangka basa utama, nanging akèh benchmark sing ana kanggo ngukur kapabilitas basa non-Inggris isih kurang.

Benchmark multibasa sing wis ana kaya MMMLU(mbukak ing jendhela anyar) saiki wis jenuh—model paling dhuwur nglumpuk cedhak skor dhuwur—mula dadi kurang migunani kanggo ngukur kemajuan nyata. Saliyane kuwi, benchmark saiki umume mung fokus ing terjemahan utawa tugas pilihan ganda. Benchmark kuwi durung cukup nyekel apa sing sejatine penting kanggo ngevaluasi kapabilitas basa sistem AI—yaiku mangerteni konteks, budaya, sejarah, lan perkara sing penting kanggo wong ing panggonan uripe.

Mula saka kuwi kita nggawe IndQA, benchmark anyar sing dirancang kanggo ngevaluasi sepira apike AI model mangerteni lan nalar babagan pitakonan sing wigati ing basa-basa India, ing macem-macem domain budaya. Sanajan tujuan kita yaiku nggawe benchmark sing padha kanggo basa lan wilayah liyane, India dadi titik wiwitan sing cetha. India nduweni kira-kira sak milyar wong sing ora nganggo basa Inggris minangka basa utama, 22 basa resmi (kalebu paling ora pitung basa kanthi luwih saka 50 yuta panutur), lan dadi pasar paling gedhe nomer loro kanggo ChatGPT.

Karya iki minangka bagean saka komitmen kita sing terus lumaku kanggo ningkatake produk lan piranti kita kanggo pangguna India, lan supaya teknologi kita luwih gampang diakses ing saindenging negara.

Cara kerjane

IndQA ngevaluasi kawruh lan nalar babagan budaya India lan urip saben dina ing basa-basa India. Benchmark iki nyakup 2.278 pitakonan ing 12 basa lan 10 domain budaya, digawe kanthi kemitraan karo 261 ahli domain saka sak India. Beda karo benchmark sing wis ana kaya MMMLU lan MGSM, benchmark iki dirancang kanggo nliti tugas sing kebak nuansa budaya lan butuh nalar jero, sing angel dicekel evaluasi saiki.

IndQA nyakup maneka topik sing gegandhengan karo budaya, kayata Arsitektur & Desain, Seni & Budaya, Urip Saben Dina, Panganan & Kuliner, Sejarah, Hukum & Etika, Sastra & Linguistik, Media & Hiburan, Agama & Spiritualitas, lan Olahraga & Rekreasi—kanthi item sing ditulis langsung ing Bengali, Inggris, Hindi, Hinglish, Kannada, Marathi, Odia, Telugu, Gujarati, Malayalam, Punjabi, lan Tamil. Cathetan: Kita kanthi khusus nambahake Hinglish amarga code-switching kerep banget ana ing obrolan.

Saben datapoint ngemot prompt sing adhedhasar budaya ing salah siji basa India, terjemahan Inggris kanggo auditabilitas, kritéria rubrik kanggo menehi nilai, lan wangsulan ideal sing nggambarake pangajab para ahli.

Diagram sing nerangake proses evaluasi: conto obrolan pangguna-asisten, tanggapan calon, lan tabel rubrik kanggo menehi skor tanggapan adhedhasar kritéria.

IndQA nggunakake pendekatan adhedhasar rubrik. Saben tanggapan dinilai nglawan kritéria sing ditulis para ahli domain kanggo pitakonan tartamtu. Kritéria kasebut nerangake apa wae sing kudu ana utawa kudu diindhari ing wangsulan ideal, lan saben kritéria diwenehi bobot poin adhedhasar pentinge. Penilai adhedhasar model mriksa apa saben kritéria wis kawujud. Skor pungkasan yaiku jumlah poin saka kritéria sing kasil dipenuhi saka total poin sing bisa digayuh.

Cara kita nggawe IndQA

  • Pitakonan ditulis para ahli. Kita kerja bareng mitra kanggo golek ahli ing India ing 10 domain beda. Dheweke nyusun prompt angel sing fokus ing nalar lan nyambung karo wilayah lan keahliane. Para ahli iki nduweni kaprigelan basa tingkat penutur asli ing basa sing relevan (lan Inggris) lan nggawa keahlian subjek sing jero.
  • Filtering adversarial: Saben pitakonan diuji marang model paling kuwat OpenAI nalika digawe: GPT‑4o, OpenAI o3, GPT‑4.5, lan (sebagian, sawisé peluncuran umum) GPT‑5. Kita mung nyimpen pitakonan nalika mayoritas model iki gagal ngasilake wangsulan sing bisa ditampa, supaya isih ana ruang kanggo kemajuan
  • Kritéria rinci. Bareng saben pitakonan, ahli domain nyedhiyakake kritéria kanggo menehi nilai tanggapan model, padha karo rubrik ujian kanggo pitakonan esai. Kritéria iki digunakake kanggo menehi nilai tanggapan saka model calon.
  • Wangsulan ideal + review. Para ahli nambahake wangsulan ideal lan terjemahan Inggris, banjur diterusake peer review lan dandan iteratif nganti disetujoni.

Conto pitakonan

Basa: Bengali

Domain: Sastra lan linguistik

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

Domain: Panganan lan kuliner

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

Peningkatan saka wektu ke wektu

Kita nggunakake IndQA kanggo ngevaluasi carane kinerja model tercanggih anyar lan nggambar kemajuan sajrone sawetara taun pungkasan. Kanthi IndQA kita bisa ndeleng yen model OpenAI wis saya apik kanthi signifikan saka wektu ke wektu kanggo basa-basa India (kanthi cathetan), nanging isih ana ruang perbaikan sing gedhe. Kita ngarep-arep bisa ningkatake kinerja lan nuduhake asil kanggo model-model sabanjure.

Kita uga mbedakake kinerja ing IndQA miturut Basa lan Domain ing ngisor iki, kanthi mbandhingake GPT‑5 Thinking High karo model tercanggih liyane.

Cathetan

Amarga pitakonan ora padha persis ing saben basa, IndQA dudu leaderboard basa; skor antar basa ora kena ditegesi minangka bandhingan langsung kapabilitas basa. Nanging, kita ngrancang nggunakake IndQA kanggo ngukur peningkatan saka wektu ke wektu ing njero kulawarga model utawa konfigurasi.

Salajengipun, amarga pitakonan disaring dadi sing GPT‑4o, OpenAI o3, GPT‑4.5, lan (sawisé peluncuran umum) GPT‑5 ora bisa njawab kanthi cekap, pilihan pitakonan iki sifaté adversarial tumrap model-model kasebut. Iki bisa mbingungake penilaian kinerja relatif GPT‑5, lan bisa ngrugèkaké kabeh model OpenAI dibandhingaké model non-OpenAI.

Para ahli ing balik IndQA

Kita matur nuwun marang 261 ahli India—jurnalis, linguis, sarjana, seniman, lan praktisi industri—sing nulis lan mriksa pitakonan kanggo IndQA. Sawetara conto ahli sing kita ajak kerja bareng yaiku:

  • Aktor lan panulis skenario Telugu pemenang Nandi Award kanthi luwih saka 750 film
  • Jurnalis Marathi lan editor ing Tarun Bharat
  • Sarjana linguistik Kannada lan editor kamus
  • Grandmaster Catur Internasional sing nglatih pemain catur top-100
  • Panulis, pujangga, lan aktivis budaya Tamil sing ngupaya keadilan sosial, kesetaraan kasta, lan kebebasan sastra
  • Komposer musik Punjabi pemenang penghargaan
  • Kurator warisan Gujarati lan spesialis konservasi
  • Pujangga Malayalam lan seniman pertunjukan pemenang penghargaan
  • Profesor sejarah, spesialis warisan budaya Bengal sing sugih
  • Profesor arsitektur, fokus ing candhi-candhi Odishan

Langkah sabanjure

Kita ngarep rilis IndQA iki bakal menehi informasi lan inspirasi kanggo nggawe benchmark anyar saka komunitas riset. Pitakonan gaya IndQA migunani banget mligi kanggo basa utawa domain budaya sing durung akeh dicakup benchmark AI sing ana. Nggawe benchmark sing padha karo IndQA bisa mbantu laboratorium riset AI sinau luwih akeh babagan basa lan domain sing saiki isih angel kanggo model, lan menehi arah utama kanggo perbaikan ing mangsa ngarep.