Giới thiệu IndQA
Một tiêu chuẩn mới để đánh giá các hệ thống AI về văn hóa và ngôn ngữ Ấn Độ.

Sứ mệnh của chúng tôi là khiến AGI mang lại lợi ích cho toàn thể nhân loại. Nếu AI hữu ích cho tất cả mọi người, nó cần phải hữu dụng ở trong các ngôn ngữ và văn hóa. Khoảng 80% dân số trên thế giới không sử dụng tiếng Anh làm ngôn ngữ chính, tuy nhiên hầu hết các tiêu chuẩn đánh giá hiện có về khả năng ngôn ngữ không phải tiếng Anh đều chưa đạt yêu cầu.
Các tiêu chuẩn đa ngôn ngữ hiện có như MMMLU(mở trong cửa sổ mới) hiện đã bão hòa—các mô hình hàng đầu tập trung gần điểm cao—khiến chúng ít hữu ích hơn trong việc đo lường tiến bộ thực sự. Ngoài ra, các tiêu chuẩn hiện tại chủ yếu tập trung vào dịch thuật hoặc các nhiệm vụ trắc nghiệm. Chúng không phản ánh đầy đủ những điều thực sự quan trọng để đánh giá khả năng ngôn ngữ của hệ thống AI — hiểu ngữ cảnh, văn hóa, lịch sử và những điều quan trọng đối với con người nơi họ sinh sống.
Đó là lý do tại sao chúng tôi xây dựng IndQA, một chuẩn mực mới được thiết kế để đánh giá mức độ các mô hình AI hiểu và suy luận về các câu hỏi quan trọng trong ngôn ngữ Ấn Độ, trên nhiều lĩnh vực văn hóa. Mặc dù mục tiêu của chúng tôi là tạo ra các tiêu chuẩn tương tự cho các ngôn ngữ và khu vực khác, Ấn Độ là điểm khởi đầu hiển nhiên. Ấn Độ có khoảng một tỷ người không sử dụng tiếng Anh làm ngôn ngữ chính, 22 ngôn ngữ chính thức (bao gồm ít nhất bảy ngôn ngữ có hơn 50 triệu người nói) và là thị trường lớn thứ hai của ChatGPT.
Công trình này là một phần trong cam kết liên tục của chúng tôi nhằm cải thiện các sản phẩm và công cụ cho người dùng Ấn Độ và giúp công nghệ của chúng tôi dễ tiếp cận hơn trên toàn quốc.
IndQA đánh giá kiến thức và khả năng lý luận về văn hóa Ấn Độ và cuộc sống hàng ngày trong các ngôn ngữ Ấn Độ. Nó bao gồm 2.278 câu hỏi trên 12 ngôn ngữ và 10 lĩnh vực văn hóa, được tạo ra với sự hợp tác của 261 chuyên gia trong nhiều lĩnh vực từ khắp Ấn Độ. Khác với các tiêu chuẩn đánh giá hiện có như MMMLU và MGSM, nó được thiết kế để thăm dò các tác vụ có sắc thái văn hóa và đòi hỏi nhiều suy luận mà các phương pháp đánh giá hiện tại khó có thể nắm bắt được.
IndQA bao gồm một loạt các chủ đề có liên quan đến văn hóa, chẳng hạn như Kiến trúc & Thiết kế, Nghệ thuật & Văn hóa, Cuộc sống hàng ngày, Ẩm thực, Lịch sử, Luật & Đạo đức, Văn học & Ngôn ngữ học, Truyền thông & Giải trí, Tôn giáo & Tâm linh và Thể thao & Giải trí—với các bài viết được viết bằng ngôn ngữ bản địa như tiếng Bengali, tiếng Anh, tiếng Hindi, Hinglish, Kannada, Marathi, Odia, Telugu, Gujarati, Malayalam, Punjabi và tiếng Tamil. Lưu ý: Chúng tôi đã bổ sung Hinglish một cách cụ thể do sự phổ biến của việc chuyển đổi mã trong các cuộc trò chuyện.
Mỗi điểm dữ liệu bao gồm một lời nhắc có nền tảng văn hóa bằng ngôn ngữ Ấn Độ, một bản dịch tiếng Anh để giải trình, tiêu chí chấm điểm và một câu trả lời lý tưởng phản ánh kỳ vọng của chuyên gia.
IndQA sử dụng phương pháp dựa trên tiêu chí đánh giá. Mỗi phản hồi được đánh giá dựa trên các tiêu chí do các chuyên gia lĩnh vực viết cho câu hỏi cụ thể đó. Các tiêu chí nêu rõ những gì một câu trả lời lý tưởng nên bao gồm hoặc tránh, và mỗi tiêu chí được gán một giá trị điểm có trọng số dựa trên tầm quan trọng của nó. Một hệ thống chấm điểm dựa trên mô hình kiểm tra xem mỗi tiêu chí có được đáp ứng hay không. Điểm cuối cùng là tổng số điểm của các tiêu chí được thỏa mãn trong tổng số điểm có thể.
- Câu hỏi do các chuyên gia biên soạn. Chúng tôi đã làm việc với các đối tác để tìm các chuyên gia tại Ấn Độ trong 10 lĩnh vực khác nhau. Họ đã soạn thảo những lời nhắc khó, tập trung vào lý luận gắn liền với khu vực và chuyên môn của họ. Những chuyên gia này là những người nói tiếng bản ngữ của ngôn ngữ liên quan (và tiếng Anh) và có kiến thức chuyên sâu về chủ đề.
- Lọc đối nghịch: Mỗi câu hỏi đã được thử nghiệm với các mô hình mạnh nhất của OpenAI tại thời điểm chúng được tạo ra: GPT‑4o, OpenAI o3, GPT‑4.5 và (một phần, sau khi ra mắt công khai) GPT‑5. Chúng tôi chỉ giữ lại những câu hỏi mà phần lớn các mô hình này không thể đưa ra câu trả lời chấp nhận được, để lại không gian để tiến hành
- Tiêu chí chi tiết. Cùng với mỗi câu hỏi, các chuyên gia lĩnh vực đã cung cấp những tiêu chí được sử dụng để đánh giá phản hồi của mô hình, tương tự như một bảng tiêu chí chấm thi cho câu hỏi bài luận. Các tiêu chí này được sử dụng để chấm điểm phản hồi từ các mô hình ứng viên.
- Các câu trả lời lý tưởng + đánh giá. Các chuyên gia đã thêm câu trả lời lý tưởng và bản dịch tiếng Anh, sau đó là đánh giá ngang hàng và sửa lỗi lặp đi lặp lại cho đến khi hoàn tất.
Ngôn ngữ: Bengali
Lĩnh vực: Văn học và Ngôn ngữ học
Lĩnh vực: Thực phẩm và Ẩm thực
Chúng tôi sử dụng IndQA để đánh giá hiệu suất của các mô hình tiên phong gần đây và vẽ biểu đồ tiến triển trong vài năm qua. Với IndQA, có thể thấy các mô hình của OpenAI đã cải thiện đáng kể theo thời gian trên các ngôn ngữ Ấn Độ (với các lưu ý), nhưng vẫn còn nhiều dư địa để cải thiện. Chúng tôi mong muốn cải thiện hiệu suất và chia sẻ kết quả cho các mô hình trong tương lai.
Chúng tôi cũng phân tầng hiệu suất trên IndQA theo Ngôn ngữ và Lĩnh vực dưới đây, so sánh GPT‑5 Thinking High với các mô hình tiên tiến khác.
Vì các câu hỏi không giống nhau giữa các ngôn ngữ, IndQA không phải là bảng xếp hạng ngôn ngữ; điểm số đa ngôn ngữ không nên được hiểu là so sánh trực tiếp về khả năng ngôn ngữ. Thay vào đó, chúng tôi có kế hoạch sử dụng IndQA để đo lường cải thiện theo thời gian trong một nhóm mô hình hoặc cấu hình.
Ngoài ra, vì các câu hỏi đã được lọc để những câu hỏi mà GPT‑4o, OpenAI o3, GPT‑4.5 và (sau khi ra mắt công khai) GPT‑5 không thể trả lời đầy đủ, nên việc lựa chọn câu hỏi là mang tính đối kháng với các mô hình này. Điều này có thể làm rối loạn hiệu suất tương đối của GPT‑5 và có thể gây bất lợi cho tất cả các mô hình của OpenAI so với các mô hình không phải của OpenAI.
Chúng tôi rất biết ơn 261 chuyên gia Ấn Độ—nhà báo, nhà ngôn ngữ học, học giả, nghệ sĩ và người thực hành trong ngành—những người đã viết và kiểm tra các câu hỏi cho IndQA. Một vài ví dụ về các chuyên gia mà chúng tôi đã hợp tác bao gồm:
- Một diễn viên và biên kịch Telugu đoạt giải Nandi với hơn 750 bộ phim
- Một nhà báo và biên tập viên người Marathi tại Tarun Bharat
- Một học giả về ngôn ngữ học Kannada và biên tập viên từ điển
- Một Đại kiện tướng cờ vua quốc tế huấn luyện các kỳ thủ cờ vua hàng đầu trong top 100
- Một nhà văn, nhà thơ và nhà hoạt động văn hóa người Tamil, người đấu tranh cho công lý xã hội, bình đẳng đẳng cấp và tự do văn học.
- Một nhà soạn nhạc người Punjabi đoạt giải thưởng
- Một người phụ trách di sản Gujarati và chuyên gia bảo tồn
- Một nhà thơ và nghệ sĩ trình diễn người Malayalam đoạt giải thưởng
- Một giáo sư lịch sử, chuyên về di sản văn hóa phong phú của Bengal
- Một giáo sư kiến trúc, tập trung vào các ngôi đền Odisha
Chúng tôi hy vọng việc phát hành IndQA sẽ cung cấp thông tin và truyền cảm hứng cho việc tạo ra các tiêu chuẩn mới từ cộng đồng nghiên cứu. Các câu hỏi theo phong cách IndQA đặc biệt có giá trị trong các ngôn ngữ hoặc lĩnh vực văn hóa mà các tiêu chuẩn AI hiện có chưa bao quát đầy đủ. Việc tạo các chuẩn mực tương tự như IndQA có thể giúp các phòng thí nghiệm nghiên cứu AI hiểu rõ hơn về các ngôn ngữ và các lĩnh vực mà các mô hình gặp khó khăn hiện nay, đồng thời cung cấp kim chỉ nam cho những cải tiến trong tương lai.


