2025年11月3日

全新推出 IndQA

針對 AI 系統在印度文化與語言方面表現的全新評分基準。

一個 3x4 的圓角方形按鈕網格，每個按鈕上皆顯示一個來自不同印度文字或拉丁字母的字元。其中包括孟加拉文 (অ)、英文 (En)、印地文 (ह)、卡納達文 (Hi) 等，代表多種印度語言，背景為淺灰色。此圖像表示多語言支援或語言選擇功能。

載入中…

我們的使命是讓 AGI 造福全人類。AI 若要真正對所有人都有幫助，就必須在跨語言與跨文化的環境中同樣運作良好。全球約有 80% 的人並非以英語為主要語言，但現有的多數基準仍不足以準確衡量非英語語言的能力。

現有的多語言基準，如 MMMLU⁠(在新視窗中開啟) 已出現天花板效應，頂尖模型的分數高度集中，難以反映實際進展。此外，現有基準多著重於翻譯或多選題任務，無法充分捕捉 AI 語言能力的核心：理解脈絡、文化、歷史，以及人們生活中真正重要的事物。

這正是我們打造 IndQA 的原因，這套全新評測基準用於檢驗 AI 模型在印度語言中，對各種文化領域中重要議題的理解與推理能力。我們也規劃為其他語言與地區建立類似基準，而印度自然成為最佳起點。全印度約有十億人的主要語言非英語，官方語言多達 22 種（其中至少七種語言的使用者超過五千萬），印度同時也是 ChatGPT 的第二大市場。

我們持續耕耘這項計畫，目標是要為印度使用者改進產品與工具，讓更多人能接觸並運用我們的技術。

運作方式

IndQA 評估 AI 在印度語言中對當地文化與日常生活知識的理解與推理能力。資料涵蓋 12 種語言、10 個文化領域，共 2278 題，由 OpenAI 與全印度 261 位領域專家共同設計。IndQA 不同於現有基準（如 MMMLU 和 MGSM），專為測試文化脈絡與深層推理任務而生，能捕捉以往評測難以反映的細節。

IndQA 涵蓋多元的文化主題，包括建築與設計、藝術與文化、日常生活、飲食與料理、歷史、法律與倫理、文學與語言學、媒體與娛樂、宗教與靈性及體育與休閒。題目以孟加拉語、英語、印地語、印地英語混合語、卡納達語、馬拉地語、奧里亞語、泰盧固語、古吉拉特語、馬拉雅拉姆語、旁遮普語和泰米爾語撰寫。註：由於對話中時常出現語碼切換，我們特別加入了印地英語混合語 (Hinglish)。

每個資料點都包含一個以印度語言撰寫、與當地文化相關的提示詞、一份用於審核的英語翻譯、評分規準，以及一個符合專家預期的理想答案。

說明評估流程的圖表：展示一段使用者與 AI 助理的對話、一則候選回覆，以及用以評分該回覆的規準表格。

IndQA 採用以評分規準為核心的方法。每個回應都依據領域專家為該問題撰寫的標準進行評分。這些標準明確說明理想答案應包含或避免的內容，並根據重要性設定不同的加權分數。模型評分器會檢查每項標準是否達成，最終得分則是滿足條件的分數總和。

IndQA 的建構方式

由專家撰寫的問題。我們與合作夥伴攜手，邀集印度各地、橫跨 10 個不同領域的專家。他們結合地方背景與自身專業，草擬高難度推理題目。這些專家具備母語等級的語言能力（含英語），並擁有深厚的專業背景。
對抗性篩選：每個問題都曾在 OpenAI 當時最強的模型上進行測試，包括 GPT‑4o、OpenAI o3、GPT‑4.5，以及 GPT‑5（部分題目於模型公開發布後測試）。我們僅保留大多數模型無法給出可接受答案的問題，藉此保留未來改進的空間。
詳細標準。每個問題都附有相關領域專家提供的評分標準，用以評估模型回應，形式類似作文題的評分規準。候選模型的回應會根據這套標準來評分。
理想答案 + 審閱。專家提供理想答案與英語翻譯，經同儕審查與多次修訂後，才完成最終定稿。

題目範例

語言：孟加拉語

領域：文學與語言學

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

領域：飲食與料理

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?