2025年11月3日

全新推出 IndQA

用於評估 AI 系統在印度文化與語言方面表現的新基準。

一個 3x4 的圓角方形按鈕網格，每個按鈕均顯示來自不同印度文字或拉丁字母的字元。當中包括孟加拉文 (অ)、英文 (En)、印地文 (ह)、卡納達文 (Hi) 等，代表多種印度語言，背景為淺灰色。此圖像表示多語言支援或語言選擇功能。

正在載入...

我們的使命是讓 AGI 造福全人類。AI 若要能真正惠及每個人，必須要在不同語言與文化中順暢運作。全球約有 80% 的人並非以英語為主要語言，但現有的多數基準仍不足以準確衡量非英語語言的能力。

現有的多語言基準（如 MMMLU⁠（在新視窗中開啟））已出現天花板效應，頂尖模型的分數高度集中，難以有效反映真實進展。此外，這些基準多聚焦於翻譯或選擇題任務，無法充分評估 AI 語言能力的核心：理解脈絡、文化、歷史，以及人們日常生活中真正重要的事物。

這正是我們開發 IndQA 的原因。這套全新評測基準旨在評估 AI 模型在印度語言中，對各種文化領域中重要議題的理解與推理能力。我們也計劃為其他語言和地區建立類似基準，而印度自然是最合適的起點。全印度約有十億人並非以英語為主要語言，擁有多達 22 種官方語言（其中至少七種語言的使用者超過五千萬），而印度更是 ChatGPT 的第二大市場。

我們持續投入這項計劃，目標是為印度用戶改進產品和工具，並讓更多人能使用我們的技術。

運作方式

IndQA 評估 AI 在印度語言中對當地文化及日常生活知識的理解與推理能力。資料涵蓋 12 種語言、10 個文化領域，共 2278 條題目，由 OpenAI 聯同全印度 261 位領域專家共同設計。IndQA 不同於現有基準（如 MMMLU 和 MGSM），專為測試文化脈絡及高推理難度的任務而設，能捕捉以往評測難以呈現的細微差異。

IndQA 涵蓋多元的文化主題，包括建築與設計、藝術與文化、日常生活、飲食與烹飪、歷史、法律與倫理、文學與語言學、媒體與娛樂、宗教與靈性及體育與休閒。題目以孟加拉語、英語、印地語、印地英語混合語、卡納達語、馬拉地語、奧里亞語、泰盧固語、古吉拉特語、馬拉雅拉姆語、旁遮普語和泰米爾語撰寫。註：由於對話中常見語碼切換，我們特別加入了印地英語混合語 (Hinglish)。

每個資料點都包括以印度語言撰寫、具文化背景的提示語、一份作為審核用途的英語翻譯、評分準則，以及反映專家預期的理想答案。

示意圖說明評估流程：展示一段用戶與 AI 助理的對話、一個候選回覆，以及用以依據評分準則打分的表格。

IndQA 採用以評分準則為核心的方法。每個回答都根據領域專家為該題設定的標準進行評分。這些標準清楚列出理想答案應包含或避免的內容，並按其重要性分配不同權重。模型評分器會檢查各項標準是否達成，最終得分為符合準則的分數總和。

IndQA 的建立方式

由專家撰寫的問題。我們與合作夥伴攜手，邀集遍佈印度、橫跨 10 個不同領域的專家。他們結合地區背景與專業知識，設計具挑戰性的推理題目。這些專家具備母語級的語言能力（包括英語），並擁有深厚的專業知識。
對抗性篩選：每條問題都曾在 OpenAI 當時最強的模型上測試，包括 GPT‑4o、OpenAI o3、GPT‑4.5，以及 GPT‑5（部分題目於模型公開發布後測試）。我們只保留大多數模型無法提供可接受答案的問題，藉此保留未來改進的空間。
詳細準則。每條問題都經過先進模型測試，只保留大部分模型無法提供合格答案的題目，以保留改進空間。候選模型的回答會依此標準評分。
理想答案 + 審閱。專家提供理想答案與英語翻譯，經同儕審查及多次修訂後，最終確認定稿。

題目示例

語言：孟加拉語

領域：文學與語言學

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

領域：飲食與烹飪

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?