3 November 2025

Memperkenalkan IndQA

Tolok ukur baru untuk mengevaluasi sistem AI dalam budaya dan bahasa India.

Sebuah grid berdimensi 3x4 dari tombol persegi dengan ujung tumpul, masing-masing berisi karakter dari aksara India yang berbeda atau huruf Latin. Aksara atau huruf tersebut meliputi Bengali (অ), Bahasa Inggris (En), Hindi (ह), Kannada (Hi), dan lainnya yang mewakili berbagai bahasa India, dengan latar belakang abu-abu muda. Gambar menunjukkan dukungan multibahasa atau pemilihan bahasa.

Memuat…

Misi kami adalah membuat AGI memberikan manfaat bagi seluruh umat manusia. Jika AI akan bermanfaat bagi semua orang, AI harus berfungsi dengan baik di berbagai bahasa dan budaya. Sekitar 80 persen orang di seluruh dunia tidak berbicara dalam bahasa Inggris sebagai bahasa utama mereka, namun sebagian besar tolok ukur yang ada untuk mengukur kemampuan bahasa non-Inggris tidak memadai.

Tolok ukur multibahasa yang ada seperti MMMLU⁠(terbuka di jendela baru) sekarang sudah jenuh—model-model teratas berkumpul mendekati skor tinggi—yang membuatnya kurang berguna untuk mengukur kemajuan yang sebenarnya. Selain itu, tolok ukur saat ini sebagian besar berfokus pada terjemahan atau tugas pilihan ganda. Mereka tidak bisa menangkap dengan baik apa yang benar-benar penting untuk mengevaluasi kemampuan bahasa sistem AI—memahami konteks, budaya, sejarah, dan hal-hal yang penting bagi orang-orang di tempat mereka tinggal.

Itulah sebabnya kami membangun IndQA, tolok ukur baru yang dirancang untuk mengevaluasi seberapa baik model AI memahami dan menalar pertanyaan yang penting dalam bahasa-bahasa India, di berbagai bidang budaya. Meskipun tujuan kami adalah untuk membuat tolok ukur serupa untuk bahasa dan wilayah lain, India adalah titik awal yang jelas. India memiliki sekitar satu miliar orang yang tidak menggunakan bahasa Inggris sebagai bahasa utama mereka, 22 bahasa resmi (termasuk setidaknya tujuh bahasa dengan lebih dari 50 juta penutur), dan merupakan pasar terbesar kedua bagi ChatGPT.

Ini merupakan bagian dari komitmen berkelanjutan kami untuk meningkatkan produk dan alat kami bagi pengguna di India, serta untuk membuat teknologi kami lebih mudah diakses di seluruh bagian negara ini.

Cara kerjanya

IndQA mengevaluasi pengetahuan dan penalaran tentang budaya dan kehidupan sehari-hari di India dalam bahasa-bahasa India. Hal ini mencakup 2.278 pertanyaan dalam 12 bahasa dan 10 di bidang budaya, yang dibuat dalam kemitraan dengan 261 pakar di bidangnya dari seluruh India. Tidak seperti tolok ukur yang ada saat ini seperti MMMLU dan MGSM, IndQA dirancang untuk mendalami tugas-tugas yang sarat nuansa budaya dan menuntut kemampuan menalar, yang sulit ditangkap oleh alat evaluasi yang telah ada.

IndQA mencakup berbagai topik yang relevan secara budaya, sepertiArsitektur & Desain, Seni & Budaya, Kehidupan Sehari-hari, Kuliner, Sejarah, Hukum & Etika, Sastra & Linguistik, Media & Hiburan, Agama & Spiritualitas,dan Olahraga & Rekreasi—dengan item yang ditulis secara asli dalam bahasa Bengali, Inggris, Hindi, Hinglish, Kannada, Marathi, Odia, Telugu, Gujarati, Malayalam, Punjabi, dan Tamil. Catatan: Kami secara khusus menambahkan Hinglish mengingat prevalensi alih kode dalam percakapan.

Setiap titik data mencakup prompt yang berakar budaya dalam bahasa India, terjemahan bahasa Inggris untuk auditabilitas, kriteria rubrik untuk penilaian, dan jawaban ideal yang mencerminkan ekspektasi para pakar.

Diagram yang menggambarkan proses evaluasi: sebuah contoh percakapan di antara pengguna-asisten, respons kandidat, dan tabel rubrik yang digunakan untuk menilai respons berdasarkan kriteria.

IndQA menggunakan pendekatan berbasis rubrik. Setiap respons dinilai berdasarkan kriteria yang ditulis oleh pakar di bidangnya untuk pertanyaan spesifik tersebut. Kriteria menjabarkan apa yang harus disertakan atau dihindari dalam jawaban ideal, dan setiap kriteria diberi nilai poin berbobot berdasarkan tingkat kepentingannya. Penilai berbasis model memeriksa apakah setiap kriteria terpenuhi. Skor akhir adalah jumlah poin dari kriteria yang terpenuhi dari total keseluruhan yang mungkin.

Bagaimana kami merancang IndQA

Pertanyaan yang ditulis oleh pakar. Kami bekerja sama dengan mitra untuk menemukan pakar di India dalam 10 bidang berbeda. Mereka menyusun prompt yang sulit dan berfokus pada penalaran yang terkait dengan wilayah dan spesialisasi mereka. Para pakar ini adalah penutur tingkat asli dari bahasa yang relevan (dan bahasa Inggris) dan memiliki keahlian mendalam di bidangnya.
Pemfilteran adversarial: Setiap pertanyaan diujikan terhadap model terkuat OpenAI pada saat pembuatannya: GPT‑4o, OpenAI o3, GPT‑4.5, dan (sebagian, pasca peluncuran publik) GPT‑5. Kami hanya mempertahankan pertanyaan-pertanyaan di mana sebagian besar model ini gagal menghasilkan jawaban yang dapat diterima, sehingga masih ada ruang untuk kemajuan
Kriteria Terperinci. Pada setiap pertanyaan, pakar di bidangnya menyediakan kriteria yang digunakan untuk menilai respons model, mirip dengan rubrik ujian untuk pertanyaan esai. Kriteria ini digunakan untuk menilai respons dari model kandidat.
Jawaban ideal + ulasan. Para pakar menambahkan jawaban ideal dan terjemahan bahasa Inggris, diikuti oleh tinjauan sejawat dan perbaikan berulang hingga persetujuan akhir.

Contoh pertanyaan

Bahasa: Bengali

Bidang: Sastra dan Linguistik

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

Bidang: Kuliner

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

Perkembangan dari waktu ke waktu

Kami menggunakan IndQA untuk mengevaluasi kinerja model terdepan terbaru dan memetakan kemajuan selama beberapa tahun terakhir. Dengan IndQA, kami dapat melihat bahwa model OpenAI telah berkembang secara signifikan dari waktu ke waktu dalam bahasa-bahasa India (dengan catatan penting⁠), tetapi masih memiliki ruang yang substansial untuk perbaikan. Kami menantikan kesempatan untuk meningkatkan kinerja dan berbagi hasil untuk model-model masa depan.

Kami juga mengelompokkan kinerja pada IndQA berdasarkan Bahasa dan Bidang di bawah ini, membandingkan GPT‑5 Thinking High dengan model-model terdepan lainnya.

Catatan penting

Karena pertanyaan tidak identik di antara bahasa, IndQA bukan papan peringkat bahasa; skor lintas bahasa tidak boleh ditafsirkan sebagai perbandingan langsung kemampuan bahasa. Sebagai gantinya, kami berencana menggunakan IndQA untuk mengukur peningkatan dari waktu ke waktu dalam keluarga model atau konfigurasi.

Selain itu, karena pertanyaan-pertanyaan difilter sesuai dengan pertanyaan-pertanyaan yang tidak dapat dijawab dengan memadai oleh GPT‑4o, OpenAI o3, GPT‑4.5, dan (setelah peluncuran publik) GPT‑5, pemilihan pertanyaan bersifat adversarial terhadap model-model ini. Hal ini berpotensi membingungkan kinerja relatif GPT‑5, dan dapat merugikan semua model OpenAI dibandingkan dengan model non-OpenAI.

Para pakar di balik IndQA

Kami berterima kasih kepada 261 pakar India—jurnalis, pakar bahasa, cendekiawan, seniman, dan praktisi industri—yang menulis dan meninjau pertanyaan untuk IndQA. Beberapa contoh pakar yang kami ajak bekerja sama meliputi:

Seorang aktor dan penulis skenario Telugu pemenang Penghargaan Nandi dengan lebih dari 750 film
Seorang jurnalis dan editor Marathi di Tarun Bharat
Seorang sarjana linguistik Kannada dan penyunting kamus
Seorang Grandmaster Catur Internasional yang melatih pemain catur peringkat 100 teratas
Seorang penulis, penyair, dan aktivis budaya Tamil yang memperjuangkan keadilan sosial, kesetaraan kasta, dan kebebasan sastra.
Seorang komposer musik Punjabi yang banyak memenangkan penghargaan
Seorang kurator warisan Gujarati dan spesialis konservasi
Seorang penyair dan seniman pertunjukan Malayalam yang banyak memenangkan penghargaan
Seorang profesor sejarah, dengan spesialisasi warisan budaya Bengal yang kaya
Seorang profesor arsitektur yang berfokus pada kuil-kuil Odishan

Langkah selanjutnya

Kami berharap peluncuran IndQA akan memberikan informasi dan menginspirasi pembuatan tolok ukur baru dari komunitas penelitian. Pertanyaan bergaya IndQA sangat berharga dalam bahasa atau ranah budaya yang kurang terwakili dalam tolok ukur AI yang ada. Membuat tolok ukur yang serupa dengan IndQA dapat membantu laboratorium penelitian AI mempelajari lebih lanjut tentang bahasa dan bidang yang menjadi tantangan bagi model saat ini, dan memberikan panduan untuk perbaikan di masa mendatang.

Penulis

OpenAI

Terus membaca

Lihat semua

GPT-5.6: Kecerdasan terdepan yang berkembang seiring ambisi Anda

Produk9 Jul 2026

Memisahkan sinyal dari derau dalam evaluasi pengodean

Riset8 Jul 2026

Memperkenalkan GPT-Live

Produk8 Jul 2026