
Misi kami adalah membuat AGI memberikan manfaat bagi seluruh umat manusia. Jika AI akan bermanfaat bagi semua orang, AI harus berfungsi dengan baik di berbagai bahasa dan budaya. Sekitar 80 persen orang di seluruh dunia tidak berbicara dalam bahasa Inggris sebagai bahasa utama mereka, namun sebagian besar tolok ukur yang ada untuk mengukur kemampuan bahasa non-Inggris tidak memadai.
Tolok ukur multibahasa yang ada seperti MMMLU(terbuka di jendela baru) sekarang sudah jenuh—model-model teratas berkumpul mendekati skor tinggi—yang membuatnya kurang berguna untuk mengukur kemajuan yang sebenarnya. Selain itu, tolok ukur saat ini sebagian besar berfokus pada terjemahan atau tugas pilihan ganda. Mereka tidak bisa menangkap dengan baik apa yang benar-benar penting untuk mengevaluasi kemampuan bahasa sistem AI—memahami konteks, budaya, sejarah, dan hal-hal yang penting bagi orang-orang di tempat mereka tinggal.
Itulah sebabnya kami membangun IndQA, tolok ukur baru yang dirancang untuk mengevaluasi seberapa baik model AI memahami dan menalar pertanyaan yang penting dalam bahasa-bahasa India, di berbagai bidang budaya. Meskipun tujuan kami adalah untuk membuat tolok ukur serupa untuk bahasa dan wilayah lain, India adalah titik awal yang jelas. India memiliki sekitar satu miliar orang yang tidak menggunakan bahasa Inggris sebagai bahasa utama mereka, 22 bahasa resmi (termasuk setidaknya tujuh bahasa dengan lebih dari 50 juta penutur), dan merupakan pasar terbesar kedua bagi ChatGPT.
Ini merupakan bagian dari komitmen berkelanjutan kami untuk meningkatkan produk dan alat kami bagi pengguna di India, serta untuk membuat teknologi kami lebih mudah diakses di seluruh bagian negara ini.
IndQA mengevaluasi pengetahuan dan penalaran tentang budaya dan kehidupan sehari-hari di India dalam bahasa-bahasa India. Hal ini mencakup 2.278 pertanyaan dalam 12 bahasa dan 10 di bidang budaya, yang dibuat dalam kemitraan dengan 261 pakar di bidangnya dari seluruh India. Tidak seperti tolok ukur yang ada saat ini seperti MMMLU dan MGSM, IndQA dirancang untuk mendalami tugas-tugas yang sarat nuansa budaya dan menuntut kemampuan menalar, yang sulit ditangkap oleh alat evaluasi yang telah ada.
IndQA mencakup berbagai topik yang relevan secara budaya, sepertiArsitektur & Desain, Seni & Budaya, Kehidupan Sehari-hari, Kuliner, Sejarah, Hukum & Etika, Sastra & Linguistik, Media & Hiburan, Agama & Spiritualitas,dan Olahraga & Rekreasi—dengan item yang ditulis secara asli dalam bahasa Bengali, Inggris, Hindi, Hinglish, Kannada, Marathi, Odia, Telugu, Gujarati, Malayalam, Punjabi, dan Tamil. Catatan: Kami secara khusus menambahkan Hinglish mengingat prevalensi alih kode dalam percakapan.
Setiap titik data mencakup prompt yang berakar budaya dalam bahasa India, terjemahan bahasa Inggris untuk auditabilitas, kriteria rubrik untuk penilaian, dan jawaban ideal yang mencerminkan ekspektasi para pakar.
IndQA menggunakan pendekatan berbasis rubrik. Setiap respons dinilai berdasarkan kriteria yang ditulis oleh pakar di bidangnya untuk pertanyaan spesifik tersebut. Kriteria menjabarkan apa yang harus disertakan atau dihindari dalam jawaban ideal, dan setiap kriteria diberi nilai poin berbobot berdasarkan tingkat kepentingannya. Penilai berbasis model memeriksa apakah setiap kriteria terpenuhi. Skor akhir adalah jumlah poin dari kriteria yang terpenuhi dari total keseluruhan yang mungkin.
- Pertanyaan yang ditulis oleh pakar. Kami bekerja sama dengan mitra untuk menemukan pakar di India dalam 10 bidang berbeda. Mereka menyusun prompt yang sulit dan berfokus pada penalaran yang terkait dengan wilayah dan spesialisasi mereka. Para pakar ini adalah penutur tingkat asli dari bahasa yang relevan (dan bahasa Inggris) dan memiliki keahlian mendalam di bidangnya.
- Pemfilteran adversarial: Setiap pertanyaan diujikan terhadap model terkuat OpenAI pada saat pembuatannya: GPT‑4o, OpenAI o3, GPT‑4.5, dan (sebagian, pasca peluncuran publik) GPT‑5. Kami hanya mempertahankan pertanyaan-pertanyaan di mana sebagian besar model ini gagal menghasilkan jawaban yang dapat diterima, sehingga masih ada ruang untuk kemajuan
- Kriteria Terperinci. Pada setiap pertanyaan, pakar di bidangnya menyediakan kriteria yang digunakan untuk menilai respons model, mirip dengan rubrik ujian untuk pertanyaan esai. Kriteria ini digunakan untuk menilai respons dari model kandidat.
- Jawaban ideal + ulasan. Para pakar menambahkan jawaban ideal dan terjemahan bahasa Inggris, diikuti oleh tinjauan sejawat dan perbaikan berulang hingga persetujuan akhir.
Bahasa: Bengali
Bidang: Sastra dan Linguistik
Bidang: Kuliner
Kami menggunakan IndQA untuk mengevaluasi kinerja model terdepan terbaru dan memetakan kemajuan selama beberapa tahun terakhir. Dengan IndQA, kami dapat melihat bahwa model OpenAI telah berkembang secara signifikan dari waktu ke waktu dalam bahasa-bahasa India (dengan catatan penting), tetapi masih memiliki ruang yang substansial untuk perbaikan. Kami menantikan kesempatan untuk meningkatkan kinerja dan berbagi hasil untuk model-model masa depan.
Kami juga mengelompokkan kinerja pada IndQA berdasarkan Bahasa dan Bidang di bawah ini, membandingkan GPT‑5 Thinking High dengan model-model terdepan lainnya.
Karena pertanyaan tidak identik di antara bahasa, IndQA bukan papan peringkat bahasa; skor lintas bahasa tidak boleh ditafsirkan sebagai perbandingan langsung kemampuan bahasa. Sebagai gantinya, kami berencana menggunakan IndQA untuk mengukur peningkatan dari waktu ke waktu dalam keluarga model atau konfigurasi.
Selain itu, karena pertanyaan-pertanyaan difilter sesuai dengan pertanyaan-pertanyaan yang tidak dapat dijawab dengan memadai oleh GPT‑4o, OpenAI o3, GPT‑4.5, dan (setelah peluncuran publik) GPT‑5, pemilihan pertanyaan bersifat adversarial terhadap model-model ini. Hal ini berpotensi membingungkan kinerja relatif GPT‑5, dan dapat merugikan semua model OpenAI dibandingkan dengan model non-OpenAI.
Kami berterima kasih kepada 261 pakar India—jurnalis, pakar bahasa, cendekiawan, seniman, dan praktisi industri—yang menulis dan meninjau pertanyaan untuk IndQA. Beberapa contoh pakar yang kami ajak bekerja sama meliputi:
- Seorang aktor dan penulis skenario Telugu pemenang Penghargaan Nandi dengan lebih dari 750 film
- Seorang jurnalis dan editor Marathi di Tarun Bharat
- Seorang sarjana linguistik Kannada dan penyunting kamus
- Seorang Grandmaster Catur Internasional yang melatih pemain catur peringkat 100 teratas
- Seorang penulis, penyair, dan aktivis budaya Tamil yang memperjuangkan keadilan sosial, kesetaraan kasta, dan kebebasan sastra.
- Seorang komposer musik Punjabi yang banyak memenangkan penghargaan
- Seorang kurator warisan Gujarati dan spesialis konservasi
- Seorang penyair dan seniman pertunjukan Malayalam yang banyak memenangkan penghargaan
- Seorang profesor sejarah, dengan spesialisasi warisan budaya Bengal yang kaya
- Seorang profesor arsitektur yang berfokus pada kuil-kuil Odishan
Kami berharap peluncuran IndQA akan memberikan informasi dan menginspirasi pembuatan tolok ukur baru dari komunitas penelitian. Pertanyaan bergaya IndQA sangat berharga dalam bahasa atau ranah budaya yang kurang terwakili dalam tolok ukur AI yang ada. Membuat tolok ukur yang serupa dengan IndQA dapat membantu laboratorium penelitian AI mempelajari lebih lanjut tentang bahasa dan bidang yang menjadi tantangan bagi model saat ini, dan memberikan panduan untuk perbaikan di masa mendatang.


